16. 集中趋势和离散程度测量总结

# 概括


变量类型

目前为止我们讲了很多!首先我们识别了数据类型为 分类 还是 数值 。然后我们学到我们可以将数值变量分为 连续 离散 。我们还发现我们可以将分类变量区分为 定类 定序


分类变量

在分析分类变量时,我们通常只看一组数据属于一个分类的类别。例如,如果我们有两个狗的分类类别: 拉布拉多与非拉布拉多。我们可以说 32% 的狗为拉布拉多(百分比),也可以说 100 只狗中有 32 只是拉布拉多(计数)。

但是,与描述数值变量相关的四个方面不用于描述分类变量。


## 数值变量

然后我们学到有四个主要方面用于描述 数值 变量:

  1. 集中趋势 测量

  2. 离散程度 测量

  3. 分布的 形状

  4. 异常值

我们看了 集中趋势 的度量

  1. 均值

  2. 中位数

  3. 众数

我们还看了 离散程度 的度量

  1. 极差

  2. 四分位差

  3. 标准差

  4. 方差


计算方差

我们学习到的 方差 计算方法准确来讲叫做 总体方差 ,计算公式为:

\bold{\frac{1}{n}\sum\limits_{i=1}^n(x_i - \bar{x})^2}

你也有可能看到下面的计算公式,它是 样本方差 的计算方法:

\bold{\frac{1}{n-1}\sum\limits_{i=1}^n(x_i - \bar{x})^2}

使用此方法的原因不在目前所学内容的范围内,但你可以 在此 找到解释。

通常,通过 各大搜索引擎搜索 便可快速找到问题的答案。现在就是开始练习的好时机!此答案会在完成此课程时更加清楚。

标准差与方差

标准差是方差的平方根。在实践中,我们通常使用标准差而非方差。这是因为标准差与我们的原始数据使用相同的单位,而方差的单位为原始数据单位的平方。


## 后续内容

在接下来的部分,我们将看数值变量的最后两个方面: 形状 异常值 。我们已讲的关于集中趋势与离散程度度量的知识将有助于你理解最后这两个方面。